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(57) Abstract 



The invention relates to a method for signalling a noise substitution during audio signal coding. According to said method, the audio 
signal is first transformed in the frequency range to obtain spectral values. The spectral values are subsequently grouped to form spectral 
value groups. On the basis of a detection whether a group of spectral values is a noise group or not, a coding table is allocated to a 
non-noise group or a tonal group by means of a coding table number for redundancy coding of the same. If a group is a noise group it 
is allocated an additional coding table number which does not refer to a coding table in order to signal that this group is a noise group 
and that it must not be redundancy coded. By signalling noise substitution by means of a Huffman-code table number for noise groups 
of spectral values which are for instance scale factor band sections and which must not be redundancy coded, an opportunity is provided 
for implementing availability of a noise substitution in a scale factor band in the bit flow syntax of the MPEG-2 Advanced Audio coding 
Standard, without intervening in the basic coding structure and without having to touch the structure of the existing bit flow syntax. 

(57) Zusammenfassung 

Bei einem Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals wird das zeitliche Audiosignal 
zuerst in den Frequenzbereich transformiert, urn Spektralwerte zu erhalten. Die Spektralwerte werden anschlieflend in Gruppen von 
Spektralwerten gruppiert. Aufgrund einer Erfassung, ob eine Gruppe von Spektralwerten eine rauschhafte Gruppe ist oder nicht, 
wind einer nicht-rauschhaften oder tonalen Gruppe mittels einer Codiertabellennummer eine Codiertabelle zum Redundanz-Codieren 
derselben zugewiesen. Falls eine Gruppe rauschhaft ist, wird derselben eine zusatzliche Codiertabellennummer zugewiesen, die nicht 
auf eine Codiertabelle verweist, urn zu signalisieren, daB diese Gruppe rauschhaft ist und daher nicht redundanz-codiert werden muB. 
Durch Signalisieren der Rauschsubstitution durch eine Huffman-Codiertabellennummer fur rauschhafte Gruppen von Spektralwerten, die 
z.B. Abschnitte aus Skalenfaktorbandern sind, welche nicht redundanz-codiert werden mttssen, ist eine Moglichkeit implementiert, das 
Vorhandensein einer Rauschsubstitution in einem Skalenfaktorband in der Bitstromsyntax des Standards MPEG-2 Advanced Audio Coding 
(AAC) zu implementieren, ohne daB in die grundsatzliche Codiererstruktur eingegriffen werden muB, und ohne daB die Struktur der 
bestehenden Bitstromsyntax angetastet werden muB. 
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Verfahren zum Signalisieren einer Rausohsubstitution belm 
Codieren eines Audiosignals 

Beschreibuna 

Die vorliegende Erfindung bezieht sich auf Audibcodierver- 
fahren und insbesondere auf Audiocodierverfahren nach dem 
Standard ISO/MPEG, wie z. B. MPEG-1, MPEG-2, MPEG-2 AAC, zur 
datenreduzierten Darstellung von hochqualitativen Audio- 
signalen. 

Der Standardisierungskorper ISO/IEC JTC1/SC29/WG11, der auch 
als die Moving Pictures Expert Group (MPEG) bekannt ist, 
wurde 1988 gegriindet, um digitale Video- und Audiocodier- 
ungsschemen fiir niedrige Datenraten zu spezif izieren. Im 
November 1992 wurde die erste Spezif ikationsphase durch den 
Standard MPEG-1 vollendet. Das Audiocodiersystem nach 
MPEG-1, das in ISO 11172-3 spezif iziert ist, arbeitet in 
einem Einkanal- Oder Zweikanalstereo-Modus bei Abtastfre- 
quenzen von 32 kHz, 44 ,1 kHz und 48 kHz. Der Standard MPEG-1 
Layer II liefert Rundf unkqualitat , wie sie durch die Inter- 
national Telecommunication Union spezif iziert ist, bei einer 
Datenrate von 128 kb/s pro Kanal. 

In seiner zweiten Entwicklungsphase bestanden die Ziele von 
MPEG darin, eine Mehrkanalerweiterung fur MPEG-l-Audio zu 
definieren, die zur existierenden MPEG-l-Systemen rttckwSrts- 
kompatibel sein sollte, und ebenfalls einen Audiocodier- 
standard bei niedrigeren Abtastf requenzen (16 kHz, 22,5 kHz, 
24 kHz) als bei MPEG-1 zu definieren • Der rtickwSrtskompa- 
tible Standard (MPEG-2 BC) sowie der Standard mit niedri- 
geren Abtastfrequenzen (MPEG-2 LSF) wurden im November 1994 
vollendet. MPEG-2 BC liefert eine gute AudioqualitSt bei 
Datenraten von 640 - 896 kb/s ftir 5 KanSle mit voller Band- 
breite. Seit 1994 besteht eine weitere Anstrengung des 
MPEG-2-Audiostandardisierungskommittees darin, einen Multi- 
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kanalstandard mit hoherer Qualitat zu definieren, als sic 
erreichbar ist, wenn eine Riickwartskompatibilitat zur MPEG-1 
gefordert wird. Dieser nicht-riickwartskompatible Audio- 
standard gemaB MPEG-2 wird als MPEG-2 NBC bezeichnet. Das 
Ziel dieser Entwicklung besteht darin, Rundfunkqualitaten 
gemaB den ITU-R-Anforderungen bei Datenraten von 384 kb/s 
oder darunter fiir 5-kanalige Audiosignale, bei denen jeder 
Kanal die voile Bandbreite hat, zu erreichen. Der Audio- 
codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das 
Schema MPEG-2 NBC wird den Kern fiir den bereits geplanten 
Audiostandard MPEG-4 bilden, welcher hohere Datenraten haben 
wird (uber 40 kb/s pro Kanal) . Der NBC oder nicht rtickwarts 
kompatible Standard kombiniert den Codierwirkungsgrad einer 
hochauf losenden Filterbank, von Pradiktionstechniken und der 
redundanzreduzierenden Huf f man-Codierung , urn eine Audioco- 
dierung mit Rundfunkqualitat bei sehr niedrigen Datenraten 
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2 
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine 
detaillierte Darstellung des technischen Inhalts von MPEG-2 
AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush, 
L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. 
Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio 
Coding", 101st AES Convention, Los Angeles 1996, Preprint 
4382. 

Effiziente Audiocodierverf ahren entfernen sowohl Redundanzen 
als auch Irrelevanzen von Audiosignalen* Korrelationen 
zwischen Audioabtastwerten und Statistiken der Abtastwert- 
darstellung werden ausgenutzt, urn Redundanzen zu entfernen. 
Frequenzbereichs- und Zeitbereichsmaskierungseigenschaf ten 
des menschlichen Gehorsy stems werden ausgenutzt, tun nicht- 
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der 
Frequenzgehalt des Audiosignals wird mittels einer Filter- 
bank in TeilbSnder unterteilt. Die Datenratenreduktion wird 
erreicht, indent das Spektrum des Zeitsignals gemSB psycho- 
akustischen Modellen quantisiert wird, und dieselbe kann ein 
ver lust loses Codierverf ahren umfassen. 
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Allgemein gesagt wird ein zeitkontinuierliches Audiosignal 
abgetastet, um ein zeitdiskretes Audiosignal zu erhalten. 
Das zeitdiskrete Audiosignal wird mittels einer Fenster- 
funktion gefenstert, um aufeinanderfolgende Blficke oder 
Frames mit einer bestimmten Anzahl, z. B. 1024, gefensterter 
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird 
jeder Block von gefensterten zeitdiskreten Abtastwerten des 
Audiosignals in den Frequenzbereich transf ormiert, wobei 
beispielsweise eine modifizierte diskrete Cosinustransf or- 
mation (MDCT) verwendet werden kann. Die somit erhaltenen 
Spektralwerte sind noch nicht quantisiert und mtissen demnach 
quantisiert werden. Das Hauptziel dabei besteht darin, die 
Spektraldaten derart zu quantisieren, daB das Quantisie- 
rungsrauschen durch die quantisierten Signale selbst mas- 
kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard 
beschriebenes psychoakustisches Modell herangezogen, das 
unter Berucksichtigung der speziellen Eigenschaften des 
menschlichen Gehors abhangig von dem vorliegenden Audiosi- 
gnal Maskierungsschwellen berechnet. Die Spektralwerte wer- 
den nun derart quantisiert, daB das eingefiihrte Quantisie- 
rungsrauschen versteckt und somit unhorbar wird. Das Quan- 
tisieren fiihrt also zu keinem horbaren Rauschen. 

In dem NBC-Standard wird ein sog. ungleichformiger Quanti- 
sierer verwendet. ZusStzlich wird ein Verfahren verwendet, 
um das Quant isierungsrauschen zu formen. Das NBC-Verfahren 
verwendet wie auch vohergegenene Standards die einzelne 
Verstarkung von Gruppen von Spektralkoef f izienten, welche 
als SkalenfaktorbMnder bekannt sind. Um so effizient wie 
moglich zu arbeiten, ist es wtinschenswert , in der Lage zu 
sein, das Quant isierungsrauschen in Einheiten zu formen, die 
an die Frequenzgruppen des menschlichen Gehorsystems mog- 
lichst angelehnt sind. Es ist somit moglich, Spektralwerte 
zu gruppieren, welche die Bandbreite der Frequenzgruppen 
sehr eng wiedergeben. Einzelne Ska lenfakt or bander konnen 
mittels Skalenfaktoren in Stufen von 1,5 dB verstSrkt 
werden. Die Rauschformung wird erreicht, da verstSrkte 
Koeff izienten groBere Amplituden haben. Daher werden sie im 
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allgemeinen ein hoheres Signal /Rausch-VerhSltnis nach der 
Quantisierung zeigen. Andererseits benStigen groBere 
Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung 
zwischen den Skalenfaktorbandern wird implizit verandert. 
SelbstverstSndlich muB die Verstarkung durch die Skalenfak- 
toren im Decodierer korrigiert werden. Aus diesem Grund mtts- 
sen die VerstSrkungsinf ormationen, die in den Skalenfaktoren 
in Einheiten von 1,5 dB-Schritten gespeichert sind f als Sei- 
teninf ormationen zu dem Decodierer (ibertragen werden. 

Nach der Quantisierung der in Skalenfaktorbandern vorliegen- 
den ggf . durch Skalenfaktoren verstarkten Spektralwerte sol- 
len dieselben codiert werden. Das Eingangssignal in ein 
rauschloses Codiermodul ist somit der Satz von beispiels- 
weise 1024 quantisierten Spektralkoef f izienten. Durch das 
rauschlose Codiermodul werden die satze von 1024 quanti- 
sierten Spektralkoef f izienten in Abschnitte oder "Sections" 
eingeteilt, derart, daB eine einzige Huf fman-Codiertabelle 
("Codebook") verwendet wird, um jeden Abschnitt zu codieren. 
Aus Codiereff izienzgriinden konnen Abschnittsgrenzen nur an 
Skalenfaktorbandgrenzen vorhanden sein, derart, daB fur 
jeden Abschnitt oder "Section" des Spektrums sowohl die 
Lange des Abschnitts in Skalenfaktorbandern als auch die 
Huffman-Codiertabellennummer, die fur den Abschnitt ver- 
wendet wird, als Seiteninf ormationen tibertragen werden 
mussen. 

Das Bilden der Abschnitte ist dynamisch und variiert typi- 
scherweise von Block zu Block, derart, daB die Anzahl von 
Bits, die benotigt werden, um den vollen Satz von quanti- 
sierten Spektralkoef f izienten darzustellen, minimiert wird. 
Die Huffman-Codierung wird verwendet, um n-Tupel von quan- 
tisierten Koef fizienten darzustellen, wobei der Huffman-Code 
von einem von 12 Codiertabellen abgeleitet wird. Der maxi- 
male absolute Wert der quantisierten Koef fizienten, der von 
jeder Huf fman-Codiertabelle dargestellt werden kann, und die 
Anzahl von Koef fizienten in jedem n-Tupel ftir jede Codierta- 
belle sind a priori festgelegt. 
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Der Sinn des Bildens der Abschnitte Oder Sections besteht 
also darin, Bereiche mit gleicher Signals tat istik zu grup- 
pieren, um mittels einer einzigen Huf fman-Codiertabelle fiir 
eine Section einen moglichst hohen Codiergewinn zu errei- 
chen # wobei der Codiergewinn allgemein durch den Quotienten 
aus Bits vor der Codierung und Bits nach der Codierung de- 
finiert ist. Mittels einer Codiertabellennummer ("Codebook- 
number"), die in der fur das NBC-Verf ahren verwendeten Bit- 
stromsyntax festgelegt ist, wird auf eine der 12 Huffman-Co- 
diertabellen verwiesen, welche fur einen speziellen Ab- 
schnitt den hochsten Codiergewinn ermoglicht. Der Ausdruck 
"Codiertabellennummer" soil in dieser Anmeldung somit den 
Platz in der Bitstromsyntax bezeichnen, der fur die Codier- 
tabellennummer reserviert ist. Um 11 verschiedene Codierta- 
bellennummern binar zu codieren, werden 4 Bit benotigt. Die- 
se 4 Bit mtissen fiir jeden Abschnitt, d. h. fiir jede Gruppe 
von Spektralwerten, als Seiteninf ormationen tibertragen wer- 
den, damit der Decodierer zum Decodieren die entsprechende 
korrekte Codiertabelle auswahlen kann. 

Eine weitere Technik, die neuerdings Beachtung findet, ist 
die "Rauschsubstitution" , deren Aspekte ausftihrlich in Do- 
nald Schulz: "Improving Audio Codecs by Noise Substitution", 
Journal of the Audio Eng. Soc, Bd. 44, Nr. 7/8, S. 593 - 
598, Juli/August 1996, beschrieben sind. Wie bereits erwahnt 
wurde, verwenden herkommliche Audiocodieralgorithmen tlbli- 
cherweise Maskierungsef fekte des menschlichen Ohrs, um die 
Datenrate oder die Anzahl von zu Ubertragenden Bits ent- 
scheidend zu reduzieren. Maskierung bedeutet also, daB eine 
oder mehrere Frequenzkomponenten als Spektralwerte andere 
Komponenten mit niedrigeren Pegeln unhSrbar machen. Dieser 
Effekt kann auf zwei Arten und Weisen ausgenutzt werden. 
Zuerst mussen Audiosignalkomponenten, die durch andere 
Komponenten maskiert werden, nicht codiert werden. Zweitens 
ist das Einftihren von Rauschen durch die eben beschriebene 
Quantisierung erlaubt, wenn dieses Rauschen durch Kompo- 
nenten des ursprting lichen Signals verdeckt wird. 
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Bei rauschhaften Signalen ist das menschliche Gehorsystem 
nicht in der Lage, den exakten Zeitverlauf eines solchen 
Signals zu erfassen. Bei ublichen Algorithmen fiihrte dies 
dazu, daB sogar die Wellenform des weiBen Rauschens, welche 
fUr das menschliche Gehor nahezu irrelevant ist, codiert 
wurde. Ein gehorrichtiges Codieren von rauschhaltigen 
Signalen erfordert daher hohe Bitraten ftir Informationen, 
die nicht horbar sind, wenn keine speziellen Vorkehrungen 
getroffen werden. Falls jedoch rauschhaltige Komponenten von 
Signalen erfaBt und roit Informationen iiber ihre Rauschpegel f 
uber ihren Frequenzbereich oder fiber ihren zeitlichen Aus- 
dehnungsbereich codiert werden, kann eine solche iiberfliissi- 
ge Codierung verringert werden, was zu auBerordentlich 
groBen Biteinsparungen fuhren kann. Diese Tatsache wird 
durch die Psychoakustik untermauert, die besagt, daB der 
Wahrnehmungseindruck von Rauschsignalen primar von deren 
spektraler Zusammensetzung und nicht von der tatsachlichen 
Wellenform bestimmt wird. Dies ermoglicht also die Benutzung 
der Rauschsubstitutionstechnik bei der Datenreduktion von 
Audiosignalen . 

Der Codierer steht daher vor der Aufgabe, in dem gesamten 
Spektrum des Audiosignals rauschartige oder rauschhafte 
Spektralwerte zu finden bzw. zu erkennen. Eine Definition 
fiir rauschhafte Spektralwerte lautet wie folgt: Wenn eine 
Signalkomponente durch ihren Pegel, durch ihren Frequenzbe- 
reich und durch ihren zeitlichen Ausdehnungsbereich derart 
charakterisiert werden kann, daB sie ohne horbare Unter- 
schiede fttr das menschliche Gehorsystem durch ein Rauscher- 
setzungsverfahren rekonstruiert werden kann f wird diese 
Signalkomponente als Rauschen klassif iziert. Die Erfassung 
dieser Charakteristik kann entweder im Frequenzbereich oder 
im Zeitbereich durchgefUhrt werden, wie es in der zuletzt 
zitierten VerSf fentlichung dargestellt ist. Das einfachste 
Verfahren besteht beispielsweise darin, tonale, d. h. nicht 
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre- 
quenz-Transformation verwendet wird, und indem stationare 
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Spitzen in zeitlich aufeinanderfolgenden Spektren verfolgt 
werden. Diese Spitzen werden als tonal bezeichnet, alles 
andere wird als rauschhaft bezeichnet. Dies stellt jedoch 
eine relativ grobe Rauscherfassung dar. Eine weitere Mog- 
lichkeit, zwischen rauschhaften und tonalen Spektralkom- 
ponenten zu unterscheiden, besteht in der Verwendung eines 
Pradiktors fiir Spektralwerte in aufeinanderfolgenden 
Blocken. Dabei wird eine PrSdiktion von einem Spektrum zu 
dem folgenden Spektrum, d. h. dem Spektrum, das dem nSchsten 
zeitlichen Block oder Frame zugeordnet ist, durchgefiihrt. 
Unterscheidet sich ein pradizierter Spektralwert von einem 
tatsSchlich durch Transformation ermittelten Spektralwert 
des nachsten zeitlichen Blocks oder Frames nicht oder nur 
wenig, so wird da von ausgegangen, daB es sich bei diesem 
Spektralwert um eine tonale Spektralkomponente handelt. 
Daraus kann ein TonalitatsmaB/iabgeleitet werden, dessen Wert 
einer Entscheidung zugrundeliegt, um tonale und rauschhafte 
Spektralwerte voneinander zu unterscheiden. Dieses Erfas- 
sungsverfahren ist jedoch lediglich ftir streng stationare 
Signale geeignet. Es versagt dabei, Situationen zu erfassen, 
bei denen Sinussignale mit gering veranderten Frequenzen 
uber der Zeit vorhanden sind. Solche Signale erscheinen oft 
in Audiosignalen, wie z. B. Vibratos, und es ist fiir den 
Fachmann of f ensichtlich, daB diese nicht durch eine rausch- 
hafte Komponente ersetzt werden konnen. 

Eine weitere Moglichkeit zur Erfassung von rauschhaften 
Signalen besteht in der Rauscherfassung durch PrSdiktion im 
Zeitbereich. Hierfiir eignet sich ein angepaBtes Filter als 
PrSdiktor, welcher wiederholt angewendet werden kann, um 
eine lineare Pradiktion durchzuftthren, wie es in der Technik 
hinreichend bekannt ist. Vergangene Audiosignale werden ein- 
gespeist und das Ausgangssignal wird mit dem tatsSchlichen 
Audioabtastwert verglichen. Im Fall eines kleinen Pradikti- 
onsfehlers kann Tonalitat angenommen werden. Um den Charak- 
ter unterschiedlicher Frequenzregionen zu bestimmen, d. h. 
um den Spektralbereich zu erfassen, ob eine Gruppe von Spek- 
tralwerten eine rauschhafte Gruppe ist, miissen Zeit-Fre- 
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quenz -Trans forma tionen sowohl des urspriinglichen als auch 
des pradizierten Signals durchgefiihrt werden. Dann kann ftir 
jede Frequenzgruppe ein Tonal itatsmaB berechnet werden, in- 
dem die urspriinglichen und die pradizierten Werte mit- 
einander verglichen werden. Ein Hauptproblem dabei ist der 
begrenzte dynamische Bereich des Pradiktors. Eine rausch- 
hafte Frequenzgruppe mit einem hohen Pegel dominiert den 
PrSdiktor aufgrund des resultierenden groBen Fehlers. Andere 
Frequenzregionen mit tonalen Komponenten konnten als rausch- 
haft interpret iert werden. Dieses Problem kann durch Verwen- 
dung eines iterativen Algorithmus verringert werden , bei dem 
das Fehlersignal normalerweise einen geringeren Pegel als 
das Ursprungssignal hat und wieder durch einen weiteren Pra- 
diktor eingespeist wird, wonach beide pradizierten Signale 
addiert werden. Weitere Verfahren sind in der Veroffentli- 
chung von Schulz ausgefuhrt. 

Die nun als rauschhaft klassif izierte Gruppe von Spektral- 
werten wird nicht wie ublich quantisiert und Entropie- bzw. 
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta- 
belle) zum Empf anger tibertragen. Stattdessen wird nur eine 
Kennung zur Anzeige der Rauschsubstitution sowie ein MaB ftir 
die Energie der rauschhaften Gruppe von Spektralwerten als 
Seiteninformationen iibertragen. Im Empf anger werden dann fur 
die substituierten Koef f izienten Zufallswerte (Rauschen) mit 
der iibertragenen Energie eingesetzt. Die rauschhaften Spek- 
tralwerte werden also durch Zufallsspektralwerte mit ent- 
sprechendem EnergiemaB substituiert. 

Durch die Ubertragung einer einzigen Energieinf ormation an- 
stelle einer Gruppe von Codes, d, h. mehrerer quantisierter 
und codierter Spektralwerte, fur die quantisierten Spektral- 
koef f izienten sind erhebliche Dateneinsparungen moglich. Es 
ist offensichtlich, daB die erreichbaren Datenrateneinspa- 
rungen vom Signal abhangen. Handelt es sich z. B. urn ein 
Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen 
rauschhaften Gruppen, oder mit transienten Eigenschaften f so 
wird eine geringere Datenrateneinsparung moglich sein, als 
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wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf- 
ten Gruppen codiert wird. 

Der eingangs beschriebene Standard MPEG-2 Advanced Audio 
Coding (AAC) untersttitzt die Moglichkeit der Rauschsubsti- 
tution nicht. Die erheblichen Datenrateneinsparungen sind 
mit dem bisherigen Standard daher nicht moglich. 

Die Aufgabe der vorliegenden Erfindung besteht darin, den 
bestehenden Standard MPEG-2 AAC um die Moglichkeiten der 
Rauschsubstitution derart zu erweitern, daB weder die grund- 
satzliche Codiererstruktur noch die Struktur der vorhandenen 
Bitstromsyntax angetastet wird. 

Diese Aufgabe wird durch ein Verfahren zum Signalisieren 
einer Rauschsubstitution beiia Codieren eines Audiosignals 
gemSB Anspruch 1, durch ein Verfahren zum Codieren eines 
Audiosignals gemaB Anspruch 10 und durch ein Verfahren zum 
Decodieren eines Audiosignals gemaB Anspruch 11 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daB im Falle der Durchfiihrung einer Rauschsubstitution fur 
ein rauschhaftes Band keine Quant isierung und Redundanz- 
Codierung oder Huf fman-Codierung von Spektralwerten durch- 
geftihrt werden braucht. Stattdessen werden, wie es bereits 
beschrieben wurde, im Decodierer Rausch-Spektralwerte filr 
eine rauschhafte Gruppe erzeugt, deren MaB fiir die Energie 
dem MaB fiir die Energie der Rausch-substituierten Spektral- 
werte entspricht. In anderen Worten werden fiir rauschhafte 
Gruppen keine Codiertabellen verwendet, da keine Redun- 
danz-Codierung stattfindet. Somit ist auch die Codier- 
tabellennummer, d. h. der entsprechende Platz in der Bit- 
stromsyntax des codierten Audiosignals, ttberf liissig. Dieser 
Platz der Bitstromsyntax, d. h. die Codiertabellennummer , 
kann nun gemaB der vorliegenden Erfindung dazu verwendet 
werden, anzuzeigen, daB eine Gruppe rauschhaft ist und einer 
Rauschsubstitution unterzogen wird. Da, wie es ebenfalls 
erwShnt wurde, lediglich 12 Codiertabellen vorgesehen 
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werden, der Platz in der Bitstromsyntax jedoch 4 Bit 
betrSgt, mit denen insgesamt ein Zahlenbereich von 0-15 
bin&r dargestellt werden kann, exist ieren sog. zusStzliche 
Codiertabellennummern, die auf keine Codiertabelle verwei- 
sen. Lediglich die Codiertabellennummern 0-11 verweisen 
auf eine Codiertabellennummer. Bei einem bevorzugten Aus- 
fiihrungsbeispiel der vorliegenden Erfindung wird die Co- 
diertabellennummer 13 verwendet, um dem Decodierer zu si- 
gnalisieren, daB die Gruppe, die in ihren Seiteninf onna- 
tionen die Codiertabellennummer 13, d. h. die zusStzliche 
Codiertabellennummer, aufweist, eine rauschhafte Gruppe ist 
und einer Rauschsubstitution unterzogen worden ist. Fiir 
Fachleute ist es jedoch of f ensichtlich, daB auch die zu- 
satzliche Oder freie Codiertabellennummer 12, 14 oder 15 
eingesetzt werden kann. 

Wie es bereits weiter vorne dargestellt wurde, konnen die 
Spektralwerte, die nach einer Frequenzbereichstransf ormation 
des zeitlichen Audiosignals vorhanden sind, in Skalenf aktor- 
bander gruppiert werden, urn eine optimale Maskierung des 
Quant is ierungsrauschens zu erreichen. Bei dem Standard 
MPEG-2 AAC sind zusatzlich mehrere Skalenfaktorbander in 
Abschnitte oder "Sections" gruppiert. Eine Section besteht 
daher zumeist aus mehreren Skalenfaktorbandern. Das heiBt, 
daB eine Rauschsubstitution immer fiir eine ganze Section 
signalisiert wird, d. h. ob die Rauschsubstitution aktiv 
oder nicht aktiv ist. Aufgrund der Tatsache, daB die rausch- 
haften Skalenfaktorbander nicht quantisiert werden, mtissen 
auch keine Skalenfaktoren fiir dieselben berechnet oder 
iibertragen bzw. codiert werden. Das heiBt, daB zusStzlich zu 
der Codiertabellennummer, welche die Rauschsubstitution an 
sich anzeigt, eine weitere Stelle im Bitstrom frei ist, 
welche anderweitig besetzt werden kann. Bei dem bevorzugten 
Ausftihrungsbeispiel der vorliegenden Erfindung wird an die 
Stelle, die fiir den Skalenfaktor in den Seiteninf ormationen 
zu einem Skalenf aktorband vorgesehen ist, ein MaB fiir die 
Energie der ersetzten Spektralkoef f izienten geschrieben. Wie 
es bereits erwShnt wurde, hangt die Wahrnehmung von Rausch- 
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signalen primar von deren spektraler Zusammensetzung und 
nicht von deren tatsachlicher Wellenform ab. Aus den Spek- 
tralwerten eines rauschhaften Skalenfaktorbandes wird somit 
ein MaB fur die Energie der Spektralwerte in dem rauschhaf- 
ten Skalenfaktorband berechnet. Diese Grdfie wird anstelle 
des Skalenfaktorbandes in die Seiteninf ormationen einge- 
tragen, ohne daB zusatzliche Seiteninf ormationen benotigt 
werden oder die Struktur der Bitstromsyntax verSndert werden 
muB. Diese zu tibertragende Gr6Be kann entweder die Gesamt- 
energie der Spektralwerte in einem rauschhaften Skalenfak- 
torband sein oder die mittlere Energie, die beispielsweise 
auf einen Spektralwert oder eine Spektrallinie in dem Ska- 
lenfaktorband normiert ist. Bei dem bevorzugten Ausfuh- 
rungsbeispiel der vorliegenden Erfindung wird jedoch nicht 
die mittlere Energie sondern die Gesamtenergie als MaB ftir 
die Energie verwendet. 

Fur die Ubertragung des MaBes fur die Energie der ersetzten 
Spektralwerte wird vorzugsweise die gleiche Auflosung ver- 
wendet, wie sie zur inversen Skalierung der iibertragenen 
spektralen Daten verwendet wird, d- h. eine logarithmische 
Skalierung mit einer Auflbsung von 1,5 dB beim AAC-Standard. 
fihnlich wie beim Layer-III-Verf ahren wird beim AAC-Verfahren 
zur Rekonstruktion der nicht-rauschhaften, d. h. tonalen, 
Spektralanteile a) die inverse Kennlinie des nichtlinearen 
Quantisierers auf den quantisierten Wert (X) der Spektralli- 
nie angewendet (Y = X 4/3t ) , und dann b) eine "inverse Skalie- 
rung" entsprechend der iibertragenen Skalenf aktoren durchge- 
fiihrt. (Z = Y x 2< SF/ *>), wobei SF der Skalenfaktor des je- 
weiligen Skalenfaktorbandes ist, und wobei Z den requanti- 
sierten Spektralwert darstellt. Die Auflosung betragt somit 
1,5 dB, 

Bei dem Verfahren zura Signalisieren einer Rauschsubstitution 
beim Codieren eines Audiosignals gemSB der vorliegenden 
Erfindung, bei dem fiir ein rauschhaftes Skalenfaktorband 
kein Skalenfaktor benbtigt wird, sondern stattdessen das MaB 
fiir die Energie der substituierten Spektralwerte eingesetzt 
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wird, werden die selben Codiergesetze ftir das Mafl fur die 
Energie der substituierten Spektralwerte eingesetzt wie sie 
sonst beim Skalenfaktor zur Anwendung kommen wtirden. Dies 
stellt eine vorteilhafte Nutzung bereits Vorhandener Resour- 
cen im AAC-Codierer dar und erfordert keinerlei zusStzliche 
Seiteninf ormationen . 

Eine weitere vorteilhafte Anwendung der Signalisierung der 
Rauschsubstitution ist bei Stereoaudiosignalen gegeben. Das 
menschliche Ohr ist in der Lage, eine Korrelation zwischen 
den Signalen bzw. KanSlen (L und R) eines Stereokanalpaars, 
welches bei AAC als "Channel Pair" bezeichnet wird, bis zu 
einem gewissen Grad wahrzunehmen. Daher sollte auch im Falle 
einer Rauschsubstitution die Korrelation zwischen den beiden 
ersetzten bzw. substituierten Rauschsignalen des Kanalpaars 
ahnlich zu der des Originalsignals sein. Skalenf aktorbander 
im linken und im rechten Kanal, welche die gleiche Mitten- 
frequenz haben, konnen beide rauschsubstituiert werden , wenn 
eine Rauschhaftigkeit erkannt wird. Werden beide Kanale 
rauschsubstituiert, und werden keine weiteren Vorkehrungen 
getroffen, so haben die im Codierer zufallig erzeugten 
Rausch- Spektralwerte zwar die gleiche Gesamtenergie wie im 
urspriinglichen Audiosignal, dieselben sind jedoch aufgrund 
des zufSlligen Erzeugens vollig unkorreliert. Dies kann 
unter bestimmten Umstanden zu horbaren Fehlern fiihren. Urn 
dies zu vermeiden ist es moglich r die selben zufallig er- 
zeugten Rausch-Spektralwerte eines Skalenfaktorbandes ftir 
beide Kanale zu verwenden, was einer vollstandigen Korrela- 
tion der rauschhaften SkalenfaktorbSnder des linken und 
rechten Kanals entspricht. 

Dabei wird gemaB einem bevorzugten Ausftihrungsbeispiel der 
vorliegenden Erfindung folgendermaBen vorgegangen: Fur jedes 
Kanalpaar existiert im AAC-Standard eine sog. Mitte/Seite- 
Maske (M/S-Maske) , welche im Standard selbst als "ms_used" 
(= ms-verwendet) bezeichnet wird. Diese M/S-Maske ist ein 
Bitvektor f der bandweise anzeigt, ob zwischen den beiden 
Kanalen eine M/S-Stereocodierung angewendet worden ist, 
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welche fUr Fachleute bekannt ist und einfiihrend in J.D. 
Johnston, A.J. Ferreira: "Sum-Difference Stereo Transform 
Coding" , IEEE ICASSP 1992, S. 569 - 571, und auch im MPEG- 
AAC-Standard beschrieben ist. Die M/S-Maske besteht aus ei- 
ner Anzahl von Bits, wobei jedes Bit einem Skalenfaktorband 
zugeordnet ist. Wird in einem Skalenfaktorband eine M/S-Co- 
dierung verwendet, so wird ein Signalisierungsbit in der 
M/S-Maske in den Seiteninf ormationen gesetzt sein, das die 
M/S-Codierung dem Decodierer mitteilt. Wird jedoch ein 
rauschhaftes Skalenfaktorband im linken sowie im rechten 
Kanal fur die gleiche Mittenfrequenz der Skalenfaktorbander 
(fiir L und fiir R) erkannt, so findet selbstverstSndlich 
keine Mitte/Seite-Codierung statt. Das M/S-Bit fiir dieses 
Skalenfaktorband steht also ebenso wie die Codiertabellen- 
nummer und der Skalenfaktor in dem Bitstrom entsprechend der 
Bitstromsyntax zur Verfiigung, um etwas anderes zu signali- 
sieren. In diesem Fall kann das Bit der M/S-Maske fiir das 
rauschhafte Skalenfaktorband beider Kanale verwendet werden, 
um anzuzeigen, ob fiir den linken und rechten Kanal unabhan- 
gige Rausch-Spektralwerte Oder Rauschvektoren erzeugt werden 
sollen, was dem Normalfall entsprechen wiirde, oder ob der 
gleiche Rauschvektor fiir sowohl den linken als auch rechten 
/ Kanal in dem rauschhaften Skalenfaktorband verwendet werden 
soil. 

Wie es fiir Fachleute bekannt ist, konnen bei nichtrausch- 
haften Skalenf aktorbMndern die Skalenf aktoren mittels einer 
Dif ferenzcodierung codiert werden. Fiir einen entsprechenden 
Skalenfaktor in einem folgenden Skalenfaktorband muB nicht 
wieder der gesamte Wert des Skalenf aktors codiert werden, 
sondern lediglich die Differenz desselben vom vorhergehen- 
den. Dies wird als Dif ferenzcodierung bezeichnet. Diese 
Dif ferenzcodierung wird bei einem bevorzugten Ausfiihrungs- 
beispiel der vorliegenden Erfindung ebenfalls zum Codieren 
des MaBes fur die Energie der Spektralanteile in einem 
rauschhaften Skalenfaktorband verwendet. Damit muB fiir ein 
folgendes Skalenfaktorband nicht wieder das gesamte MaB der 
Energie sondern lediglich die Differenz des aktuellen vom 
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vorhergehenden codiert werden, was wiederum zu Biteinsparun- 
gen AnlaB gibt. SelbstverstSndlich muB immer ein erster Aus- 
gangswert vorhanden sein # der jedoch auch ein fester von 
vorneherein vorgegebener Wert sein kann. Dieses Verfahren 
der Differenzcodierung wird daher besonders vorteilhaft 
sein, wenn aufeinanderf olgende Ska lenfakt or bander Frames 
rauschhaft sind. 
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Patentansprtlche 

Verfahren zum Signalisieren einer Rauschsubstitution 
beim Codieren eines Audiosignals, mit folgenden Schrit- 
ten: 

Transformieren eines zeitlichen Audiosignals in den Fre- 
quenzbereich, um Spektralwerte zu erhalten; 

Gruppieren der Spektralwerte in Gruppen von Spektralwer- 
ten; 

Erfassen, ob eine Gruppe von Spektralwerten eine rausch- 
hafte Gruppe ist; 

falls eine Gruppe nicht rauschhaft ist, Zuweisen einer 
Codiertabelle aus einer Mehrzahl von Codiertabellen zum 
Redundanz codieren der nicht rauschhaften Gruppe wobei 
mittels einer Codiertabellennummer auf die der Gruppe 
zugewiesene Codiertabelle verwiesen wird; und 

falls eine Gruppe rauschhaft ist, Zuweisen einer zusStz- 
lichen Codiertabellennummer , die nicht auf eine Codier- 
tabelle verweist, zu dieser Gruppe, um zu signalisieren, 
daB diese Gruppe rauschhaft ist und daher nicht redun- 
danz -codiert wird. 

Verfahren nach Anspruch 1, bei dem die Gruppen von Spek- 
tralwerten Abschnitte (Sections) sind, wobei eine Co- 
diertabellennummer fur nicht rauschhafte Abschnitte und 
eine zusatzlich Codiertabellennummer flir rauschhafte Ab- 
schnitte vergeben werden. 

Verfahren nach Anspruch 2, 

bei dem ein Abschnitt eines oder mehrere Skalenf aktor- 
bander aufweist, wobei jedem Skalenf aktorband ein Ska- 
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lenfaktor zugeordnet ist; und 

bei dem im Falle eines rauschhaften Skalenfaktorbandes 
ein MaB fiir die Energie der Spektralwerte in dem rausch- 
haften Skalenfaktorband anstelle eines Skalenf aktors co- 
diert wird. 

4. Verfahren nach Anspruch 3, bei dem das MaB fiir die Ener- 
gie der Spektralwerte in einer rauschhaften Gruppe die 
auf einen Referenzwert normierte mittlere Energie der- 
selben in einem Skalenfaktorband ist. 

5. Verfahren nach Anspruch 3, bei dem das MaB fvir die Ener- 
gie die Gesamtenergie der Spektralwerte in dem rausch- 
haften Skalenfaktorband ist. 

6. Verfahren nach Anspruch 3 oder 4, bei dem zum Codieren 
des MaBes fiir die Energie der rauschhaften Spektralwerte 
in dem Skalenfaktorband die selbe Skalierung verwendet 
wird, die iiblicherweise zum Codieren eines Skalenf aktors 
eines Skalenfaktorbandes verwendet wird, das kein 
rauschhaftes Skalenfaktorband ist. 

7. Verfahren nach einem der Anspriiche 3-6, bei dem die 
Codierung des MaBes fiir die Energie der Spektralwerte in 
rauschhaften Skalenfaktorbandern eine Dif ferenzcodierung 
ist. 

8. Verfahren nach einem der Anspriiche 1-7, 

bei dem das Audiosignal ein Stereoaudiosignal ist, 

bei dem eine Mitte/Seite-Codierung zweier Kanale des 
Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen- 
weise anzeigbar ist, und 



bei dem im Fall von f requenzmSBigen entsprechenden 
rauschhaften Gruppen beider Kan&le durch die Mitte/Sei- 
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te-Maske anzeigbar ist, ob unterschiedliche oder gleiche 
Rausch-Spektralwerte fttr beide Kanale beixn Decodieren 
eines decodierten Audiosignals zu verwenden sind. 

9. Verfahren nach einem der vorhergehenden Anspruche, bei 
dem das Erfassen, ob eine Gruppe von Spektralwerten eine 
rauschhafte Gruppe ist, mittels des zeitlichen Audiosi- 
gnals oder mittels der Spektralwerte des zeitlichen Au- 
diosignals oder mittels sowohl des zeitlichen Audiosi- 
gnals als auch der Spektralwerte des zeitlichen Audio- 
signals durchgeftihrt wird. 

10. Verfahren zum Codieren eines Audiosignals mit folgenden 
Schritten: 

Signalisieren einer Rauschsubstitution nach einem der 
Ansprtiche 1-9; 

Berechnen eines MaBes fur die Energie einer rauschhaften 
Gruppe; 

Eintragen des MaBes fur die Energie in der Gruppe zuge- 
ordnete Seiteninf ormationen; 

Eintragen der zusatz lichen Codiertabellennummer in die 
der Gruppe zugeordneten Seiteninf ormationen; 

Quantisieren der nichtrauschhaften Gruppen und Codieren 
der quantisierten nichtrauschhaften Gruppen unter Ver- 
wendung der Codiertabelle, auf die durch die Codier- 
tabellennummer verwiesen wird, wahrend ftir rauschhafte 
Gruppen keine Quantisierung oder Codierung stattfindet; 
und 

Bilden eines Bitstroms, der quantisierte und codierte 
nichtrauschhafte Gruppen sowie fur rauschhafte Gruppen 
ein MaB fur die Energie der Spektralwerte der rausch- 
haften Gruppen und die zusatzliche Codiertabellennummer 
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zur Signalisierung der rauschhaften Gruppen aufweist. 

11 . Verfahren zum Decodieren eines codierten Audiosignals 
mit folgenden Schritten: 

Empfangen eines Bitstroms; 

Redundanz -Decodieren von nichtrauschhaften Gruppen auf- 
grund einer durch eine Codiertabellennummer angezeigten 
Codiertabelle und Requantisieren von redundanz-decodier- 
ten, quantisierten Spektralwerte; 

Erfassen einer rauschhaften Gruppe von Spektralwerten 
auf grund einer zusatzlichen Codiertabellennummer , die 
einer solchen Gruppe zugeordnet ist; 

Erfassen eines MaBes fur die Energie der Spektralwerte 
in der rauschhaften Gruppe aufgrund von der Gruppe zu- 
geordneten Seiteninf ormationen; 

Erzeugen von Rausch-Spektralwerten fiir die rauschhafte 
Gruppe, wobei das MaB der Energie der Rausch-Spektral- 
werte in der rauschhaften Gruppe gleich dem MaB fiir die 
Energie von Spektralwerten der rauschhaften Gruppe in 
dem urspriinglichen Signal ist; 

Transformieren der requantisierten Spektralwerte und der 
Rausch-Spektralwerte in den Zeitbereich, urn ein deco- 
diertes Audiosignal zu erhalten. 

12. Verfahren gemSB Anspruch 11, bei dem das Erzeugen der 
Rausch-Spektralwerte durch Erzeugen von Zuf allszahlen 
Oder durch Erhalten derselben aus einer Tabelle statt- 
findet, wobei die addierte Energie der Rausch-Spektral- 
werte dem MaB der Energie der Spektralwerte der rausch- 
haften Gruppe des urspriinglichen Audiosignals ent- 
spricht. 
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13. Verfahren nach Anspruch 11 oder 12, das ferner folgende 
Schritte aufweist: 

Erfassen einer Mitte/Seite-Maske fiir Stereoaudiosignale; 

aufgrund der Mitte/Seite-Maske fiir Stereoaudiosignale, 
Verwenden identischer Rausch-Spektralwerte fiir entspre- 
chende rauschhafte Gruppen beider Kanale, oder Erzeugen 
zweier unabhangiger Gruppen von Rausch-Spektralwerten 
fiir bei KanSle. 
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